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基于 潜在 标签 挖掘 和 细 粒 度 偏好 的 个 性 化 标签 推荐 


FAI, AXR FEE”, IK Xn B A! 


(1. 陆军 工程 大 学 ,南京 210007; 2. 国防 科技 大 学 第 六 十 三 研究 所 ,南京 210007) 


f! 要 : 为 进一步 提高 个 性 化 标签 推荐 性 能 ， 针 对 标签 数据 的 稀 鸣 性 以 及 传统 方法 忽略 隐藏 在 用 户 和 项 目 上 下 文中 潜 
在 标签 的 缺陷 ， 提 出 一 种 基于 潜在 标签 挖掘 和 细 粒 度 偏好 的 个 性 化 标签 推荐 方法 。 首 先 ， 提 出 利用 用 户 和 项 目的 上 下 
文 信息 从 大 量 未 观测 标签 中 挖掘 用 户 可 能 感 兴趣 的 少量 潜在 标签 ， 将 标签 重新 划分 为 正 类 标签 、 潜 在 标签 和 负 类 标签 


进而 构建 < 用 户 , 项 目 > 对 标签 的 细 粒 度 偏好 关系 ， m 性 的 同时 , 提高 对 标签 偏好 关系 的 表达 能 
然后 ， 基 于 贝 叶 斯 个 性 化 排序 优化 框架 对 细 粒 度 偏好 关系 进行 建 模 ， 并 结合 成 对 交互 张 量 分 解 对 偏好 值 进行 预测 ， 构 
建 细 粒度 的 个 性 化 标签 推荐 模型 并 提出 优化 算法 。 对 比 实验 表明 ， 提 出 的 方法 在 保证 较 快 收 你 速度 的 前 提 下 ， 有 效 地 
提高 了 个 性 化 标签 的 推荐 准确 性 
关键 词 ， 个 性 化 标签 推荐 ， MARERE: NANNELIA: 成 对 交互 张 量 分 解 
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Personalized tag recommendation based on potential tag mining and fine-grained preference 
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(1. Army Engineering University, Nanjing 210007, China; 2. the 63rd Research Institute, National University of Defense 
Technology, Nanjing 210007, China) 


Abstract: To further improve the performance of personalized tag recommendation, this paper argued that traditional methods 
ignore the potential and informative tags hidden in the context of users and items. Aimed at this, this paper proposed a novel 
personalized tag recommendation method BPR-PITF-P based on potential tag mining and fine-grained preference. Firstly, BPR- 
PITF-P leverages the context information of both users and items to mine potential and useful tags, and gets three kinds of tags: 
positive tags, potential tags, and negative tags. Based on the above, it translates the traditional pairwise preference into fine- 
grained preference relationship among user-item post and tags. This kind of treatment helps alleviate the sparse problem of 
tagging data. Second, combined with pairwise interaction tensor factorization method to predict preference value, BPR-PITF-P 
models the preference relationship based on the optimization criteria of Bayesian personalized ranking, and develops a 
personalized tag recommendation model followed by optimization algorithm. The comparison results show that our proposed 
method could improve tag recommendation performance in the premise of guarantee convergence speed. 
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Delicious、CiteULike、 豆 办 网 等 都 设计 了 标签 推荐 模块 给 用 户 


0 引言 推荐 标签 ， 这 样 用 户 在 浏览 资源 时 ， 标 签 推荐 系统 提供 一 些 用 

作为 Web 2.0 的 重要 特征 ， 社 会 标签 允许 用 户 自由 创建 标 户 可 能 感 兴趣 的 个 性 化 标签 ， 以 便 其 能 够 更 好 地 标注 和 管理 这 
签 对 资源 M 音乐 、 电 影 、 图 片 等 ， 统 称 项 目 ) 进行 标 。” 些 资源 。 但 由 于 有 许多 用 户 懒 于 为 信息 资源 添加 标签 ， 所 以 需 
注 。 标 签 既 描述 了 项 目的 显 式 语义 特征 ， 又 反映 了 用 户 的 显 式 ”要 个 性 化 标签 推荐 系统 自动 为 其 推荐 与 信息 资源 相关 的 标签 。 
hos 使 得 用 户 能 够 更 加 便捷 地 检索 、 组 织 、 分 享 信息 等 ， 典型 的 个 性 化 标签 推荐 方法 主要 包括 基于 协同 过 滤 的 标签 
在 一 定 程度 上 缓解 了 “信息 过 载 ” 的 问题 。 推荐 算法 [1]、 基 于 图 模型 的 标签 推荐 算法 3 、 基 于 张 量 分 解 的 

标签 系统 非常 希望 用 户 能 够 为 资源 打上 高 质量 的 标签 , 促 。 ”标签 推荐 [1 基于 内 容 的 标签 推荐 算法 [m1 和 混合 的 标签 推荐 


进 对 资源 的 分 享 与 利用 。 很 多 网 站 如 Lastftm、MovieLens、 算法 MI 等 , 这 些 方法 各 有 优 缺 点 , 适应 不 同 的 应 用 场景 。 另 外 ， 
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型 的 张 量 分 解 方法 包括 高 阶 奇异 值 分 解 
Chigher-order-singular-value-decomposition, HOSVD) 05、 排 序 


Cranking tensor factorization, RTF) 册 ， 这 些 方法 都 是 
的 Tucker 分 解 模型 (tucker decomposition, TD), 但 
杂 度 比较 高 器 。 为 进一步 降低 计算 复杂 度 ， 文 献 [5] 提 
出 一 种 基于 成 对 交互 张 量 分 解 (pairwise interaction tensor 
factorization, PITF) 的 方法 ， 同 时 与 当前 较为 流行 的 、 基 于 成 
对 偏好 假设 的 贝 叶 


斯 个 性 化 排序 (Bayesian personalized ranking， 
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负 类 标签 , 一 方面 可 缓解 标签 数据 的 稀 朴 性 , 另 一 广 
户 ， 项 目 > 对 不 同类 型 标签 的 偏好 能 力 的 表达 。 这样 
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标签 提出 一 种 细 粒 度 偏好 关系 ， 改 进 


对 标签 的 成 对 偏好 ， 并 利用 贝 叶 斯 个 性 化 排序 准 
关系 ， 提 高 个 性 化 标签 推荐 性 能 。 
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首先 ， 利 用 用 户 和 项 目的 上 下 文 关系 挖掘 潜在 、 
标签 样本 ， 构 建 三 类 标签 ， 正 类 标签 、 潜 在 标签 、 负 类 标签 ; 
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好 关系 。 


潜在 标签 挖掘 
由 于 未 观测 标签 的 集合 规模 相对 


中 抽取 更 加 有 价值 的 样本 ， 对 提高 推 


用 户 通常 主要 关注 少数 排 在 前 
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SEMBLE 
篇 好 关系 的 影响 。 
则 标签 的 规模 通常 远 远 大 于 观测 标 
尾 分 布 容易 导致 抽样 的 偏 置 ， 且 忽略 了 标 多 
标签 同等 看 待 
从 大 量 未 观测 标签 中 挖掘 
HERAT KER, E) 
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样 方法 ， 来 提高 模型 
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上 下 文 信息 来 挖掘 一 些 潜在 的 、 有 价 
及 < 用 户 ,项 目 > 对 标签 的 偏好 关系 。 
下 面 举 例 说 明 。 表 1 给 出 数据 集中 的 部 分 < 
个 性 化 标签 推荐 的 目的 是 为 某 个 ) 
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关系 ， 为 个 性 化 标签 推荐 提供 有 价值 的 信息 ， 进 而 提高 推荐 本 
型 的 性 能 。 


事实 上 , 本文 提 出 的 思想 类 似 于 文献 [17] 和 文献 [18]， 这 些 
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地 结合 进行 标签 推荐 。 下 面 主要 介绍 BPR-PITF 方法 。 
传统 的 BPR 建立 在 < 用 户 u，, 项 目 i> 对 标签 成 对 偏好 假设 
的 基础 上 ,其 认为 Qe D 对 观测 标签 的 偏好 大 于 未 观测 标签 1, , 


文献 通过 利用 用 户 社会 关系 等 挖掘 用 户 可 能 更 加 感 兴趣 的 潜在 
项 目 ， 来 构建 用 户 对 项 目的 细 粒 度 偏好 关系 ， 进 而 构建 更 加 有 
效 的 模型 提升 对 项 目 个 性 化 推荐 性 能 ， 这 些 方法 为 本 文 的 思 吕 
提供 有 力 的 支撑 。 但 针对 个 性 化 标签 推荐 的 任务 ， 当 缺乏 用 户 
社会 关系 时 ， 如 何 利 用 仅 有 的 用 户 -项 目 -标签 交互 数据 来 挖掘 


即 t >u ,目的 是 尽 可 能 让 观测 标签 排 在 未 观测 标签 前 面 。 基 
于 贝 叶 斯 理论 ，BPR 通过 最 大 化 排序 目标 函数 的 后 验 概率 ( 式 
(1) 来 获取 项 目的 正确 排序 

p(O|>,,) « pC-,.| 9) p(9) (1) 
其 中 ，P( 盖 |9) 表示 G6 0 关于 标签 成 对 排序 的 似 然 函 数 。P(O) 


潜在 的 标签 是 一 大 关键 步 又 。 本 文 则 提出 了 充分 利用 用 户 和 项 
目的 上 下 文 来 实现 潜在 标签 的 挖掘 ， 从 大 量 未 观测 标签 数据 中 
挖掘 规模 较 小 的 、 与 目标 用 户 和 项 目 紧 密 关 联 的 潜在 标签 ， 形 
成 不 同类 型 的 标签 , 进而 构建 < 用 户 , 项 目 > 对 标签 的 偏好 关系 。 
1.2 Hm m X 
基于 前 面 构建 的 三 类 标签 ， 提 出 将 传统 的 成 对 偏好 关系 假 
设 : 观测 标签 二, 未 观测 标签 , 改进 为 细 粒 度 的 偏好 关系 假设 : 
观测 标签 =,; 潜在 标签 门 观测 标签 > 其 他 未 观测 标签 。 这 种 
细 粒 度 偏好 关系 可 形式 化 为 4 =, t, Dtm ts ， 其 中 为 观测 
标签 Eft, Lh, t, IRERE T, € Us tobh}, t IFERN 
MIERZE ts E {f> bol 。 相 对 于 传统 的 成 对 偏好 关系 ， 本 文 提出 的 
细 粒 度 偏 好 关系 能 充分 挖掘 用 户 潜在 的 偏好 ， 提 高 用 户 偏好 关 
系 的 表达 能 
根据 以 上 假设 ,为 每 个 (xD 形式 化 定义 三 类 标签 : 正 类 标 
ZET, BERRET, MURRET, 。 其 中 , 正 类 标签 即 出 现在 数 
的 观测 标签 ， 潜 在 标签 和 负 类 标签 构成 非 观测 标签 。 

D EXERT: T={t|(wi,t,)e5} 

2) 潜在 标签 7,: T, ={t, |Q,51,) eS) 

3) fi ET, T, - (6, | 0it,) £S N (uit) €S,] 
其 中 ，5 为 训练 集 ， 包 含 大量 〈 用 户 ， 项 目 ， 标 签 ) 三 元 组 ， 
S={(u,i,f)|ueU,iel,teT}c UxIxT,U NAPE, IX 


at 
ml 
Nar 
vint 
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LT 


项 目 集合 ，7 为 标签 集合 。 5S, =TUT ， 具 体 地 ， 从 项 目 上 
文 的 角度 ， 可 挖掘 潜在 标签 工 : T={f|(if)c5}。 从 用 户 上 下 


文 的 角度 ， 可 控 气 潜在 标签 开 : T, - (|o) C S). 这样， 对 于 
DTA, TIMBER S =TUT 。 

基于 三 类 标签 数据 ， 构 建 用 户 的 偏好 关系 ， 形 式 化 为 
Nt > fs， 其 中 teT，，t, eT,，t, eT,。 基 于 该 偏好 


A? "P p? ftp 


关系 , 便 可 利用 BPR-PITF 模型 [5] 对 偏好 关系 进行 建 模 与 求解 。 
2 “个 性 化 标签 推荐 模型 与 求解 


2.1 个 性 化 标签 推荐 模型 
为 < 用 户 ， 项 目 > 推荐 其 可 能 感 兴 趣 的 标签 ， 本 质 上 是 一 种 
面向 排序 的 任务 , 尽 可 能 将 用 户 最 可 能 感 兴趣 的 项 目 排 在 前 面 ， 


表示 参数 的 先 验 概率 函数 ，@ 表示 PITF 模型 的 参数 。 
假设 不 同 Qus 的 偏好 相互 独立 ， 最 大 化 后 验 概率 MAP 等 
效 于 


max [ [ p, =, t [Op Q) 


RH, S 表示 训练 集中 的 < 用 户 ， 项 目 ， 标 签 > 三 元 组 集合 
S-(G.it)|ueU,ie Lt, eT}，t 为 出 现在 训练 集中 的 观测 标 
签 ，5 则 为 未 出 现在 训练 集中 的 未 观测 标签 。 p(t =, 1,10) 表 
示 (wi) 对 标签 和 志 的 偏 序 关系 的 概率 ， 常 用 sigmoid 函数 来 
表达 


pt, t,|9) =È (9) - F,,, (9) 6) 


其 中 : ox) =1/(1+exp(-)) .. Ê, () 为 (wi) 对 标签 的 预测 


评分 ， 采 用 PITF 模型 来 计算 。 

PITF 是 张 量 分 解 的 一 种 特殊 形式 ， 利 用 有 用户、 项目、 标签 
三 者 之 间 的 两 两 交互 关系 来 对 偏好 进行 建 模 ， 通 过 对 三 种 交互 
关系 分 解 来 计算 Qus D 对 标签 1 的 偏好 值 


Ê (©) =U, V +U, “T +V, -TY (4) 


对 应 的 参数 @ 为 用 户 、 项 目 和 标签 的 隐 因 子 算 阵 Ue R'^* 、 
VeR"*. T' em^*. T' eg^* . Kb, M 为 用 户 个 数 ，N 为 
项 目 个 数 ，P 为 标签 个 数 。 对 于 先 验 概率 P(@) ， 常 用 均值 为 0 
的 高 斯 分 布 函 数 来 表示 。 

这 样 ， 通 过 最 小 化 负 对 数 后 验 概率 ， 得 到 BPR-PITF 的 目 
标 函数 


A x p, F 
aminn L=- 3 Y nof, @-Ê,, 0+6 
其 中 :4 为 正则 项 因子 ， 用 于 防止 过 拟 合 ， 
lelEAO IÈ +V IE enm enm IÈ. 
EEREXE T V e E P LE E FR JP MR 


tí, NE =u t, ,利用 BPR-PITF 优化 框架 构建 新 的 个 性 化 标 
签 推荐 模型 ， 其 目标 函数 为 


从 而 提高 用 户 的 满意 度 。 贝 叶 斯 个 性 化 排序 BPR 是 一 种 基于 排 
序 学 习 的 个 性 化 推荐 优化 准则 与 框架 。 成 对 交互 张 量 分 解 PITF 
则 是 用 于 计算 < 用 户 ， 项 目 > 对 某 个 标签 的 偏好 值 的 经 典 方 法 ， 
类 似 于 常用 的 矩阵 分 解 模型 ，PITF 具有 较 好 的 理论 基础 、 良 好 
的 扩展 性 、 预 测 的 准确 性 等 优点 ， 可 与 BPR 优化 框架 进行 很 好 


L-- Y Yn oP, (0) - P (0) - 
(i )es tpTp 


min 
6-( U.V.T" 7") 


. : A (6) 
P3 > o(£F,, (0) - F,,, (0) * 2 lel 


(uit, ES tpeTs 
由 于 提出 的 模型 基于 BPR-PITF 和 潜在 标签 (Potential tags) 
进行 个 性 化 标签 推荐 ， 因 此 又 称 该 模型 为 BPR-PITF-P。 


201811.00184v1 


chinaXiv 


2.2 


迭代 更 新 参数 @={ U,V,T",T"}， 


模型 求解 


针对 每 个 样本 (4,i,ta,tp,fs) ,采用 随机 梯度 下 降 法 (SGD) 


学 习 率 为 7。 
235 0-(U,V,T",T"V 的 梯度 可 表示 为 


: : US B) - Eu 


—. --(-o(£F,, (0)- F (0)) 


00 sic ix 09 


(-o(F, (9) - £,,, (0)) 


aÊ, (9) -Ê (0) 


其 中 : 


[29] 
Ê (9) -Ê (©) 
=(U,:V, +U, T; +V,- T/) -(U,-V, +U, T, ) 
=U,- (T} -T+ VT eT) 
分 别 令 
ô nn =-(-o(F,, 9- 天 (9)) 
0 =-(-o(F,, 9- 天 (6)) 
具体 地 ， 
1) 对 U 更 新 
L 
egar -T")+ő -T^)-« AU, 
OU, i 
OL 
U, SU, - n: —- 
"Ta. 
20 对 V 更 新 
OL 
— =ô T'-T')«ó. T' -T")4 AV. 
ov us T TT) 8, (TY TY) + A, 
OL 
V-2V-gp— 
:一 7 oV 
3) XT" 更 新 
2 =0O ULA+O ,U, +AT" 
OT. FAI 
pm 8E 
i ôT” 
ôL, ( U )-AT- 
ôT” 
mw L, 
dE ôT” 
ôL, ( U ) +AT" 
ôT” 
U TUY — OL, 
: i OT" 


4) Xp T" 更 新 : 


ôL, =a, V, +0, p V, * AT, 
ôT” 


(7) 


(8) 


a1) 


(12) 


(13) 


(14) 


(13) 


(16) 


(17) 


(18) 


(19) 


Q0) 
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OL, p 
ar. (V) +AT) (21) 
V V OL, 
QT -m" ar" Q2) 
OL, ， 
oT Ô, iaa CV) * AT, (23) 
V v ôL, 
LAN er" (24) 


2.3 BPR-PITF 算法 


BPR-PITF-P 算法 
1. 输入 : 
学 习 率 7 ， 最 大 和 迭代 次 数 K 
参数 @={ U,V,W} 


2. 输出 : 
3. 初始 化 © ~ N(0,0.01) 


4. repeat 


训练 集 S ,每 个 (u,i) 的 潜在 标签 集合 T,、 负 类 标签 集合 7 ， 


5. 从 训练 集 


中 均匀 抽取 《用 户 ， 项 


， 标 签 ) 三 元 组 (uita) 


S 
6. 从 潜在 标签 集合 五 中 随机 抽取 潜在 标签 ti 
RE T, 中 随机 抽取 负 类 标签 t, 
om (X 8) 


M 
x 
2 
s 
3n 
RÈ 
Nar 
让 


( 式 7)、 
: 式 (9) -X (100 
X (11) -X (12 


9. 更 新 U 
10. 更 新 V: 


11. EJT": X (13) - 式 (18) 


12. EJT: X (19) - 式 (24) 


13.until 目标 函数 ( 式 6) 未 收敛 或 者 迭代 次 数 > K 


14. return G9 -(U,V,T",T") 
第 5 一 7 行进 行 样本 的 
潜在 标签 ， 负 类 标签 > 五 元 组 。 
三 元 组 < 用 户 , 项 目 , 正 类 标签 
ERE T, 中 随机 


FÉ, 得 到 < 用 户 , WH, 正 类 标签 ， 

lL 体 地 ,针对 训练 集 5 中 的 每 个 
签 > (4,i,t4)， 从 每 个 Gol 的 潜在 标 
取 潜 在 标签 t; ， 从 每 个 (u,i) 的 负 类 标签 集 


f T, 中 随机 抽取 负 类 标签 fy H 进而 构建 样本 (4,i,ti,tp,ts) o 
第 8 一 12 行 分 别 计算 模型 关于 参数 @={ U,V,T",T" ) 的 梯 


E, 并 利用 随机 梯度 下 降 法 对 参数 进行 更 新 。 利 用 式 (9) (10) 


更 新 参数 UU， 利用 式 (11) (12) E% 
(180 更 新 参数 7T” ， 利 | 


所 参数 V ， 利 


TX (13) ~ 


J (19) ~ 24) 更 新 参数 mr 。 


值得 注意 
更 新 过 程 ， 其 中 |5 | 训练 集 中 Geor) 
于 一 个 样本 (4,i,ts,tp,is) 进行 ， 这 样 
练 集 § ， 保 证 每 次 迭代 过 程 


的 是 , 根据 文献 [7], 通常 每 次 迭代 涉及 |5 | 个 BPR 


的 个 数 ， 每 个 BPR 更 新 基 
每 次 迭代 即 可 遍历 一 遍 训 


中 所 有 观测 样本 都 能 参与 训练 。 


第 13 (TA LUE VUE SE. 第 14 行 返 回 参 数 


O-[(U,V,T",T"), 
训练 得 到 参数 后 ， 


Ej 5U V +U T7 +U, T^ 计算 测试 和 


uita 


便 可 根据 式 (4) 


mt 


中 (用 户 , 项 目 ) 对 所 


有 未 观测 标签 的 评分 , 根据 评分 大 小 对 标签 进行 排序 , 得 到 top- 


n 个 性 化 标签 推荐 列表 。 
复杂 度 分 析 : 算法 每 次 迭代 涉及 


[S | 个 样本 , 针对 每 个 样本 


(lt, touts) 对 参数 @={ U,V.T",T") 进行 更 新 的 复杂 度 主要 
与 隐 特 征 维度 K 相关 ， 因 此 每 次 迭代 的 时 间 复 杂 度 为 O(K) 。 
另外 ， 由 于 样本 中 潜在 标签 ts 和 人 负 类 标签 的 确定 可 在 训练 前 
进行 预 处 理 ， 不 影响 整个 模型 的 训练 时 间 。 


3 ”实验 结果 与 分 析 


数据 集 
实验 采用 两 个 数据 集 进行 训练 与 测试 :Lastfm 和 Movielens 
数据 集 (https://grouplens.org/datasets/hetrec-2011)， 这 两 个 数据 
集 是 用 于 推荐 领域 的 标准 数据 集 。 
a) Lastfm: Lastfm 是 国外 流行 的 主要 包含 用 户 对 音乐 网 站 
Last.fm 中 歌手 的 收听 、 标 签 等 信息 。 数 据 集 是 以 多 个 < 用 户 ， 
MEH, 标签 > 三 元 组 的 形式 出 现 。 该 数据 非常 稀 琉 ， 首 先 根据 文 
状 [5] 的 p-core 方法 对 数据 进行 预 处 理 (p=10), 保证 每 个 用 户 、 
项 目 、 标 签 至 少 在 10 个 < 用 户 , 项 目 > 对 中 出 现 。 预 处 理 后 的 数 
据 集 包 括 614 用 户 、 总 共 87285 条 


3.1 


Æ 


1715 个 歌手 、873 个 标签 ， 


， 等 : 基于 潜在 标签 挖掘 和 细 粒 度 偏好 的 个 性 化 标签 推荐 


性 化 标签 


ETE 


c) BPR-PITF-AI]。 该 方法 基于 BPR-PITF 


ChinaX iv 合作 REFI 


F 
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标 函 数 ， 采 用 均匀 


由 样 的 方法 来 训练 模型 。 
优化 准则 构建 个 


性 化 标签 推荐 的 


标 函 数 ， 基 于 指数 分 布 进行 


适应 抽样 来 训 


练 模型 。 


d) BPR-PITF-P。 本 文 提出 的 方法 ， 首 儿 
训练 样本 ， 形 成 新 的 偏好 关系 ， 


偏好 关系 重新 构建 个 性 化 标签 推荐 模型 。 
参数 分 别 9 - (U,V,T",T") 初始 化 为 均值 为 0、 方 差 为 


0.01 的 标准 正 态 分 布 。 


并 基于 BPR-PITF 优化 ; 


E 抽 取 潜 在 标签 构建 


则 和 


隐 特 征 和 矩阵 的 维 数 分 别 设 定 为 


d={20,40} ， 学 习 率 =0.025 ， 最 大 迭代 次 数 k=1000 。 令 


n={1,2,…,10} ， 测 试 所 有 方法 在 不 同 top-n 下 


荐 性 能 。 对 于 了 


FE 则 项 系数 4 ， 针 对 每 个 数 # 


CLastfm 数据 集 A = 0.01 Movielens 数据 外 


3.4 实验 结果 


3.4.1 Top-n 推荐 性 能 对 比 


zd. 


如 图 1 和 图 2 所 示 ， 在 Lastfm 数据 集 和 Movielens 数据 
上 ， 本 文 提出 的 方法 BPR-PITF-P 在 三 个 评价 指标 上 均 表现 最 


多, 证 明 本 文 提 出 方法 能 有 效 地 


khi, Æ Lastfm 数据 自 
Ce), (e)), Pop. BPR-PITF-U、 BPR-PITF-A, BPR-PITF-P 


的 个 性 化 标签 推 
居 集 选择 最 优 的 A 
E A =0.01) 


D 


提高 个 性 化 标签 1 


住人 荐 的 准确 性 。 


上 ， 当 K=20 时 


A 


〈 见 图 1 (a)、 


=| 


个 方法 的 准确 率 Precision @n 随 着 top n 的 增 大 则 降低 ， 召 回 率 
Recall @n 随 着 top n 的 增 大 则 增 大 ，F1 fij FL 则 随 着 top n 


E 
之 ”记录 。 
co b) MovieLens: MovieLens 是 电影 推荐 网 站 ， 人 允许 用 户 为 
T— 。 电影 添加 标签 ， 以 方便 电影 的 搜索 与 推荐 。 首 先 对 其 进行 预 处 
z 里 根据 文献 [5] 的 p-core 方法 对 数据 进行 预 处 理 〈p=10)， 保 证 
本 每 个 用 户 、 项 目 、 标 签 至 少 在 5 个 < 用 户 ， 项 目 > 对 中 出 现 。 预 
本 处 理 后 的 数据 集 包 括 366 用 户 、1185 个 歌手 、873 个 标签 ， 总 
k 20089 条 记录 。 
C 实验 采用 5- 交 又 验证 的 方法 训练 与 测试 模型 ， 并 取 平 均值 
,作为 最 终结 果 。 根 据 文献 [5] 构 建 训练 集 和 测试 集 ， 数 据 集中 存 
D 。 在 多 个 < 用 户 ， 项 目 > 对 ， 每 个 用 户 存在 于 多 个 < 用 户 ， 项 目 > 对 
>< 中 。 针 对 数据 集中 出 现 的 每 个 用 户 ， 抽 取 一 个 < 用 户 ， 项 目 > 对 
E 及 其 相关 标签 ， 构 成 测试 集 5., ， 其 余 即 为 训练 集 S。。 。 
Uo 32 评价 标准 
PE 利用 准确 率 Precision Q n , [n] 3& Recall @ n 3l F1 n 对 个 
Fe Los He MO CREE IHRE, 
Top(u,i,n) t | (uir) e S.) 


Precision 9 n — avg 
(u De PS, n 


Top(u,i,n) N {t | (u,i,t) e S.u} 

|{t| it) es,,}| 

2. Precision @ n - Recall @ n 
Precision@ n + Recall@ n 

其 中 ， PS 表示 训练 集 5 中 出 现 的 所 有 < 用 户 ， 项 目 > 对 。 
Top(u,i,n) 表示 针对 Go ， 在 标签 排序 列表 中 出 现在 前 1 的 标 
BRA, {iN E Su) 测试 集中 与 (wi) 相关 的 标签 集合 。 
3.3 ”对 比方 法 与 参数 设置 

实验 与 当前 较为 流行 的 标签 推荐 方法 进行 对 比 ， 包 括 : 

a) Pop。 该 方法 基于 标签 的 流行 度 进行 推荐 ， 主 要 针对 每 
个 项 目 统计 所 有 标签 被 标注 的 次 数 ， 并 推荐 标注 次 数 较 高 的 标 
签 。 该 方法 作为 一 种 基准 ， 用 于 验证 其 他 方法 的 有 效 性 。 

b) BPR-PITF-UD]。 该 方法 基于 BPR-PITF 优化 准则 构建 个 


Recall 9 1 = avg 


(ui )ePS,., 


Fl@n= 


各 个 方法 的 


的 增 大 先 增 大 后 减 小 , 并 在 n=4 处 取得 最 优 值 。 当 K=40 时 ( 见 
图 1 (b)、(d)、 C£), BPR-PITF-U、 BPR-PITF-A, BPR-PITF- 
P 三 个 方法 表现 出 类 似 的 推荐 性 能 ， 但 相对 于 K=20, K=40 时 
E 荐 性 能 并 没有 得 到 太 多 的 提升 。 这 是 因为 对 于 隐 


特征 分 解 模型 来 说 ， 通 常 少数 的 隐 特 征 足 以 表达 用 
能 保证 在 可 接受 的 时 间 内 取得 足够 好 的 推荐 
性 能 。 由 于 Pop 方法 不 受 隐 特 征 维度 的 影响 ， 
和 K-40 时 性 能 一 


标签 的 特征 ， 这 村 


致 。 


户 、 项 目 、 


其 分 别 在 K=20 


相 比 其 他 方法 ，Pop 方法 表现 最 差 。 这 是 因为 Pop 方法 仅 


考虑 | 


] 于 标注 项 


显然 Pop 这 种 非 个 性 化 标签 推荐 方法 的 性 能 差 于 个 性 化 标签 推 


荐 方法 (包括 其 他 对 比方 法 BPR-PITF-U、BPR-PITF-A、 以 及 


的 最 流行 的 标签 ,未 考虑 用 户 


的 个 性 化 需求 ， 


本 文 提出 的 方法 BPR-PITF-P) 的 性 能 。 


速 降低 。 这 是 基 


+ FH 
结果 。 


集 ， 对 于 大 多 数 〔 用 
因此 当 n 为 较 小 值 时 ， 即 n=2，Movielens 数 扩 


>l 


p , 项 


此 ， 在 下 节 中 ， 为 比较 不 同方 法 的 收敛 性 能 ， 


同 的 是 ，Movielens 数据 集 的 
且 随 着 n 的 增 大 ，Fl@n 值 迅 
为 Movielens 数据 集 的 稀疏 性 大 于 Lastfm 数据 
) 来 说 ， 其 被 标注 的 标签 较 少 ， 


在 Movielens 数据 集 上 ( 见 图 2), Pop、BPR-PITF-U、BPR- 
PITF-A、BPR-PITF-P 四 个 方法 在 三 个 评价 指标 上 表现 
Lastfm 数据 集 类 似 的 结果 。 不 
Fl@n 值 在 n=2 处 取得 最 优 值 ， 


出 与 


昌 集 取得 较 好 的 


在 Lastfm 


数据 集 上 仅 关 注 n=4 时 的 top-n 推荐 性 能 随和 迭代 次 数 的 变化 趋 


势 ， 在 Movielens 数据 集 上 仅 关注 top-2 


着 性 能 


HE o 


推荐 


全 


好 的 个 性 化 书 
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